缺失值處理
在處理大量資料時,資料有些會有缺失的情況,有分以下幾種缺失的情況,隨機缺失(Missing at Random)、完全隨機缺失(Missing Completely at Random)、非隨機缺失(Missing not an Random)。
隨機缺失:資料缺失項不是完全隨機的,與其他變數有關聯性。
完全隨機缺失:資料的缺失項是完全隨機的,不依賴於其他變數,跟其他變數不相關。
非隨機缺失:資料的缺失與不完全變數的取值有關。
隨機缺失和非隨機缺失,直接刪除記錄是不合適的,所以會透過一些方式來對缺失值進行估計,如使用均值來補齊缺失值,數據依屬性有分為定距型與非定距型,定距型可以利用平均值來補齊缺失值;非定距型則可以利用統計的方式來找出眾數,用該數據的眾數來補齊缺失值。這是為最簡單的方式。
特徵選擇
在訓練資料的特徵很多時,要篩選那些特徵對於模型訓練是有幫助的,要一一的做配對來選擇出最適合的。如在人臉辨識時會先選擇使用人臉的五官特徵來做訓練,可以分別對五官做訓練,在利用這些學習到的特徵來模擬出一個像真人一樣的假影像。
特徵提取
在人臉辨識中特徵擷取較為重要,但要如何擷取到重要的特徵(人臉的五官),而非其他的如背景或是配件等,前者為固定的最多只會隨著時間而有所變化,後者而非固定的偶爾會有所變化,但要在變化時也要準確的辨識出人,不會受到影響而辨識錯人。